
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,
来自主题: AI技术研报
5721 点击 2025-05-16 15:25